Unidad 6 - Supervisión y rendimiento del sistema

Aprende a supervisar sistemas operativos, analizar rendimiento, detectar incidencias, centralizar logs, monitorizar recursos críticos y aplicar técnicas profesionales de observabilidad en entornos Windows y Linux.

⏱ Tiempo estimado por bloque: 20-35 minutos

6.1 Monitorización en tiempo real

La monitorización en tiempo real permite conocer el estado actual de un sistema operativo mientras está funcionando. Su objetivo es detectar problemas antes de que provoquen una caída del servicio.

Preguntas clave

Elementos supervisados

Recurso Qué se analiza
CPU Uso, carga y procesos intensivos
RAM Consumo y actividad swap
Disco Latencia y operaciones E/S
Red Tráfico, latencia y pérdida
💡 La monitorización en tiempo real es la base de cualquier SOC o NOC moderno.
⚠ Esperar a que el sistema “se caiga” para investigar suele ser demasiado tarde.

Mini-Test

1. ¿Qué permite detectar la monitorización en tiempo real?

6.2 Herramientas locales o del sistema operativo

Las herramientas locales permiten analizar una única máquina de forma inmediata. Son esenciales durante incidencias, diagnósticos rápidos y troubleshooting.

Herramientas Windows

Herramientas Linux

top htop vmstat 1 iostat -x 2

Ventajas

Ventaja Descripción
Rapidez Diagnóstico inmediato
Disponibilidad Incluidas en el sistema
Bajo consumo No requieren infraestructura adicional
💡 En Linux, htop suele instalarse como herramienta básica desde el primer día.

Mini-Test

1. ¿Qué herramienta Linux muestra procesos en tiempo real?

6.3 Plataformas centralizadas de monitorización

Cuando existen decenas o cientos de servidores, la monitorización local deja de ser suficiente. Las plataformas centralizadas permiten una visión global de toda la infraestructura.

Objetivos

Herramientas populares

Herramienta Función
Nagios Monitorización y alertas
Zabbix Supervisión empresarial
Prometheus Recolección métricas
Grafana Visualización dashboards
💡 La observabilidad moderna implica medir absolutamente todo.
⚠ Sin alertas automáticas los problemas pueden pasar desapercibidos durante horas.

Mini-Test

1. ¿Qué herramienta destaca por dashboards visuales?

6.4 htop, Task Manager, Nagios y Grafana

htop

Herramienta visual de Linux para analizar procesos, CPU, RAM y carga del sistema. Permite matar procesos y ordenar consumo.

sudo apt install htop htop

Task Manager

El Administrador de tareas de Windows permite diagnosticar bloqueos, procesos excesivos y rendimiento.

Nagios

Grafana

Herramienta Uso principal
htop Procesos Linux
Task Manager Procesos Windows
Nagios Alertas centralizadas
Grafana Visualización métricas
💡 Muchas empresas usan Grafana incluso para indicadores de negocio.

Mini-Test

1. ¿Qué herramienta se usa principalmente para dashboards?

6.5 Monitorización continuada

La monitorización continuada recopila métricas durante días, semanas o meses para detectar patrones históricos y prever problemas futuros.

Ventajas

Diferencia importante

Tiempo real Histórico
Qué pasa ahora Qué ha pasado y por qué
Diagnóstico inmediato Análisis de tendencias
💡 Sin histórico no existe planificación seria de infraestructura.

Mini-Test

1. ¿Qué permite detectar la monitorización histórica?

6.6 CPU, RAM, Disco y Red

CPU

Un uso elevado puntual es normal. El problema aparece cuando la CPU permanece saturada durante largos periodos.

RAM

Cuando la memoria se agota, el sistema utiliza swap, mucho más lento que RAM.

Disco

La latencia de disco y las colas de E/S son claves para detectar cuellos de botella.

Red

La saturación de ancho de banda y la latencia afectan directamente a las aplicaciones.

Componente Problema típico
CPU Saturación prolongada
RAM Thrashing
Disco Latencia alta
Red Congestión
⚠ El thrashing puede volver inutilizable un servidor aunque la CPU esté baja.

Mini-Test

1. ¿Qué ocurre durante el thrashing?

6.7 El cuello de botella oculto en el disco

Muchos problemas de rendimiento aparentemente relacionados con CPU o RAM en realidad son causados por almacenamiento lento.

Indicadores típicos

Caso típico

Una empresa detecta lentitud diaria a las 15:00. CPU y RAM parecen normales, pero la monitorización histórica revela picos extremos de latencia de disco. El problema era un backup programado.

💡 Reprogramar backups fuera del horario laboral suele mejorar radicalmente el rendimiento.
⚠ Comprar más CPU no resuelve problemas de disco.

Mini-Test

1. ¿Qué métrica revela saturación de disco?

6.8 Consejos para Windows y Linux

Windows

Linux

sar -u journalctl -f journalctl -p err

Consejos generales

Consejo Importancia
Guardar histórico Detectar tendencias
Correlacionar métricas Diagnósticos correctos
Monitorizar antes del fallo Prevención

Mini-Test

1. ¿Qué comando Linux muestra logs en tiempo real?

6.9 Registro y análisis de sucesos

Los logs describen qué ha ocurrido, quién lo hizo y cuándo sucedió. Son esenciales para troubleshooting, auditoría y ciberseguridad.

Tipos de eventos

Funciones principales

Función Objetivo
Troubleshooting Resolver incidencias
Auditoría Registrar actividad
Seguridad Detectar ataques
Análisis Identificar patrones
💡 Los logs son la “caja negra” de un sistema operativo.

Mini-Test

1. ¿Qué indican los logs?

6.10 Diagnóstico de problemas (Troubleshooting)

El troubleshooting consiste en localizar, analizar y resolver incidencias de manera estructurada.

Proceso habitual

Fase Acción
Identificación Detectar el fallo
Recopilación Analizar métricas y logs
Hipótesis Buscar causa probable
Resolución Aplicar corrección
Validación Comprobar estabilidad

Errores comunes

⚠ Muchos problemas aparentemente complejos tienen origen en configuraciones simples.

Mini-Test

1. ¿Qué se analiza primero durante troubleshooting?

6.11 Auditoría y seguridad

Los logs de seguridad permiten reconstruir incidentes y detectar accesos sospechosos.

Eventos importantes

Buenas prácticas

Práctica Objetivo
Centralizar logs Evitar pérdida evidencias
Conservar histórico Auditorías
Alertas automáticas Respuesta rápida
Normalizar eventos Correlación eficiente
💡 Un SIEM moderno correlaciona eventos de cientos de máquinas simultáneamente.

Mini-Test

1. ¿Qué permite reconstruir un incidente?

6.12 Gestión centralizada, observabilidad e investigación

Splunk y ELK

Las plataformas modernas centralizan, indexan y analizan millones de eventos procedentes de toda la infraestructura.

ELK Stack

Componente Función
Logstash Recolecta y transforma logs
Elasticsearch Indexa y almacena
Kibana Visualización dashboards

Investigación de acceso fallido

Un usuario no podía acceder a una carpeta compartida. Los permisos parecían correctos. El Event Viewer mostró un evento 4663 indicando un token antiguo de seguridad. Tras cerrar sesión y volver a entrar, el acceso funcionó correctamente.

journalctl --since "1 hour ago" journalctl -u nginx.service
💡 Muchas incidencias se resuelven analizando correctamente los eventos registrados.
⚠ Sin centralización, investigar incidentes grandes puede ser extremadamente lento.

Mini-Test Final

1. ¿Qué componente visualiza dashboards en ELK?

2. ¿Qué ID de evento se usó en el acceso fallido?

3. ¿Qué plataforma empresarial analiza millones de logs?